مقایسه روش الگوریتم em و روش های متداول جانهی داده های گمشده: مطالعه روی پرسشنامه خوددرمانی بیماران دیابتی

نویسندگان

علیرضا افشاری صفوی

a afshari safavi assistant professor, chronic diseases reseaarchcommittee, isfahan university of medical sciences, isfahan, iranگروه آمار و اپیدمیولوژی، دانشکده بهداشت، دانشگاه علوم پزشکی اصفهان حسین کاظم زاده قره چبق

h kazemzadeh gharechobogh msc of statistics, social security organization, tehranاداره کل آمار، اداره کل شرق تهران بزرگ ، سازمان تأمین اجتماعی منصور رضایی

m rezaei department of biostatistics and epidemiology, kermanshah university of medical sciences, kermanshah, iranگروه آمار و اپیدمیولوژی، دانشکده بهداشت، مرکز تحقیقات توسعه اجتماعی و ارتقاء سلامت دانشگاه علوم پزشکی کرمانشاه

چکیده

مقدمه و اهداف: داده های گمشده، چالش بزرگی در پژوهش ها به شمار می آیند. به فراخور نوع مطالعه و نوع متغیرهای مورد بررسی، روش های گوناگونی برای کار با این داده ها تا کنون معرفی شده است. هدف این مطالعه مقایسه پنج روش جانهی متداول در برخورد با گمشدگی در داده های پرسشنامه ای بود. روش کار: در این مطالعه تعداد500 پرسشنامه مربوط به خوددرمانی در بیماران دیابتی مورد استفاده قرار گرفت. گمشدگی در مشاهده ها به صورت تصنعی و با انتخاب تصادفی سؤالاتسؤالات و سپس حذف آن ها تولید شد. پنج روش جانهی عبارت بودند از: 1- میانگین سؤالاتسؤالات؛ 2- میانگین فردی؛ 3- نمای فردی؛ 4- رگرسیون خطی؛ و 5- الگوریتم em. برای هر روش میانگین و انحراف معیار نمرات جانهی شده با مقادیر اصلی مقایسه گردید. هم چنین ضریب همبستگی اسپیرمن، درصد دسته بندی اشتباه و آماره کاپا نیز محاسبه شد. یافته ها: مقدار آماره کاپای بالاتر از 81/0 برای سطح گمشدگی 10 درصد بیانگر توافق تقریباً کامل در این سطح از گمشدگی بود. الگوریتم em بالاترین میزان توافق با نتایج داده های واقعی را با مقدار آماره کاپای 886/0 نشان داد. هم چنین با افزایش میزان گمشدگی اطلاعات به 30 درصد، الگوریتم em و روش میانگین فردی با مقدار کاپای 697/0 و 687/0از توافق نسبتاً مشابهی برخوردار بودند. نتیجه‏ گیری: در این مطالعه الگوریتم em دقیق ترین روش برای کار با داده های گمشده در تمام الگوهای مورد ارزیابی شناخته شد. روش میانگین فردی به دلیل سادگی کار با داده های گمشده به ویژه برای بیش تر خوانندگان غیرآماری می تواند مورد توجه قرار گیرد.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

مقایسه روش الگوریتم EM و روش‌های متداول جانهی داده‌های گمشده: مطالعه‌روی پرسشنامه خوددرمانی بیماران دیابتی

Background and Objectives: Missing data is a big challenge in the research. According to the type of the study and of the variables, different ways have been proposed to work with these data. This study compared five popular imputation approaches in addressing missing data in the questionnaires. Methods: In this study, 500 questionnaires were used for self-medication in diabetic patients. Mi...

متن کامل

مقایسه‌ی جانهی الگوریتم EM با دو روش جانهی میانگینی و نمونه‌های جدید در آمارگیری‌های پانلی

 در اقتصاد و سایر علوم اجتماعی، پژوهش‌گران اغلب تمایل به مدل‌بندی داده‌های پانلی که در آن واحدهای نمونه‌ای به‌‌طور مکرر در مقاطع زمانی مختلف مشاهده می‌شوند، دارند. یکی از کاربردهای داده‌های پانلی براورد نرخ تغییر میانگین متغیر پاسخ در طی زمان است. در تمام آمارگیری‌ها به ویژه آمارگیری‌های پانلی، بی‌پاسخی یک مشکل اساسی است که در داده‌های علوم اجتماعی و پزشکی به وفور رخ می‌دهد. این نوع مطالعه‌ها م...

متن کامل

جانهی داده های گمشده در آمارگیری های پانلی با استفاده از الگوریتم em

در اقتصاد و سایر علوم اجتماعی، پژوهش گران اغلب تمایل به مدل بندی داده های پانلی که در آن واحدهای نمونه ای به طور مکرر در مقاطع زمانی مختلف مشاهده می شوند، دارند. یکی از کاربردهای داده های پانلی براورد نرخ تغییر میانگین متغیر پاسخ در طی زمان است. در انواع آمارگیری ها به ویژه آمارگیری های پانلی، بی پاسخی یک مشکل اساسی است که در داده های علوم اجتماعی و پزشکی به وفور رخ می دهد. این نوع مطالعه ها مع...

15 صفحه اول

مقایسه ی جانهی الگوریتم em با دو روش جانهی میانگینی و نمونه های جدید در آمارگیری های پانلی

در اقتصاد و سایر علوم اجتماعی، پژوهش گران اغلب تمایل به مدل بندی داده های پانلی که در آن واحدهای نمونه ای به طور مکرر در مقاطع زمانی مختلف مشاهده می شوند، دارند. یکی از کاربردهای داده های پانلی براورد نرخ تغییر میانگین متغیر پاسخ در طی زمان است. در تمام آمارگیری ها به ویژه آمارگیری های پانلی، بی پاسخی یک مشکل اساسی است که در داده های علوم اجتماعی و پزشکی به وفور رخ می دهد. این نوع مطالعه ها معم...

متن کامل

استخراج دانش از داده های بیماران دیابتی با استفاده از روش درخت تصمیم C5.0

Introduction: In the last 10 years The incidence of diabetes has doubled worldwide with annual increasing rate of about 6%. More than 2 million people in Iran are now affected by this disease. The present research deals with the relation between the observed complications of type 2 diabetic patients and some related features like Blood Glucose Level, Blood Pressure, Age, and Family History. The...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید


عنوان ژورنال:
مجله اپیدمیولوژی ایران

جلد ۱۱، شماره ۳، صفحات ۴۳-۵۱

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023